模型透明度是许多领域的先决条件和机器学习研究中越来越受欢迎的地区。例如,在医学领域中,揭示疾病背后的机制通常具有比诊断本身更高的优先级,因为它可能决定或引导潜在的治疗和研究方向。解释模型全球预测的最受欢迎方法之一是允许置换数据的性能的置换重要性与基线为基准。然而,这种方法和其他相关方法将低估在协调因子存在中的重要性,因为这些涵盖其提供的信息的一部分。为了解决这个问题,我们提出了涵盖了信息解剖学(CID),一种考虑所有功能信息的方法重叠,以纠正释放重要性提供的值。我们进一步展示了如何在耦合Markov随机字段时有效地计算CID。在受控玩具数据集上首先展示其在调整权释放重要性中的效力,并讨论其对现实世界医疗数据的影响。
translated by 谷歌翻译
通常在高维生物数据集中发现的最常见的缺陷之一是特征之间的相关性。这可能导致统计和机器学习方法过度或低估这些相关预测因素,而真正相关的则被忽略。在本文中,我们将定义一种名为“成对置换算法}(PPA)的新方法,其目的是在特征重要性值中减轻相关偏差。首先,我们提供了一个理论基础,在以前的工作中建立了折射重要性。然后将PPA应用于玩具数据集,我们展示了校正相关效果的能力。我们进一步测试PPA在微生物霰弹枪数据集上,表明PPA已经能够获得生物相关的生物标志物。
translated by 谷歌翻译
The applicability of computational models to the biological world is an active topic of debate. We argue that a useful path forward results from abandoning hard boundaries between categories and adopting an observer-dependent, pragmatic view. Such a view dissolves the contingent dichotomies driven by human cognitive biases (e.g., tendency to oversimplify) and prior technological limitations in favor of a more continuous, gradualist view necessitated by the study of evolution, developmental biology, and intelligent machines. Efforts to re-shape living systems for biomedical or bioengineering purposes require prediction and control of their function at multiple scales. This is challenging for many reasons, one of which is that living systems perform multiple functions in the same place at the same time. We refer to this as "polycomputing" - the ability of the same substrate to simultaneously compute different things. This ability is an important way in which living things are a kind of computer, but not the familiar, linear, deterministic kind; rather, living things are computers in the broad sense of computational materials as reported in the rapidly-growing physical computing literature. We argue that an observer-centered framework for the computations performed by evolved and designed systems will improve the understanding of meso-scale events, as it has already done at quantum and relativistic scales. Here, we review examples of biological and technological polycomputing, and develop the idea that overloading of different functions on the same hardware is an important design principle that helps understand and build both evolved and designed systems. Learning to hack existing polycomputing substrates, as well as evolve and design new ones, will have massive impacts on regenerative medicine, robotics, and computer engineering.
translated by 谷歌翻译
文本分类在许多真实世界的情况下可能很有用,为最终用户节省了很多时间。但是,构建自定义分类器通常需要编码技能和ML知识,这对许多潜在用户构成了重大障碍。为了提高此障碍,我们介绍了标签侦探,这是一种免费的开源系统,用于标记和创建文本分类器。该系统对于(a)是一个无代码系统是独一无二的分类器在几个小时内,(c)开发用于开发人员进行配置和扩展。通过开放采购标签侦探,我们希望建立一个用户和开发人员社区,以扩大NLP模型的利用率。
translated by 谷歌翻译
我们展示了任何具有自由度和局部自由能的系统如何在自由能原理的限制下,都将发展朝着支持层次结构计算的神经形态形态发展,在该计算中,每个层次结构的每个级别都会构成其投入的粗糙度。,并双重地将其输出的细粒度。这种层次结构发生在整个生物学中,从细胞内信号转导途径的体系结构到哺乳动物大脑中的感知和动作周期的大规模组织。正式地,一方面,锥体 - 康基图(CCCD)作为量子参考帧的模型,另一方面是CCCDS和拓扑量子场理论之间的近距离形式连接,允许在全剂量量子中代表此类计算拓扑量子神经网络的计算框架。
translated by 谷歌翻译
科学和工程学的进步通常揭示了最初用于理解,预测和控制现象的经典方法的局限性。随着进步,通常必须重新评估概念类别,以更好地跟踪最近在学科中发现的不变性。完善框架并解决学科之间的界限是至关重要的,以便它们更好地促进而不是限制实验方法和能力。在本文中,我们讨论了发育生物学,计算机科学和机器人技术的交集问题。在生物机器人的背景下,我们探索了概念,信息和生命科学的最新进展所驱动的概念和以前不同领域的变化。本文中,每个作者都提供了自己对该主题的看法,并由他们自己的纪律培训构成。我们认为,与计算一样,发育生物学和机器人技术的某些方面与特定材料无关。相反,这些领域的一致性可以帮助阐明多尺度控制,自组装以及形式与功能之间的关系。我们希望由于克服技术局限性而引起的界限,可以出现新的领域,从而将实际应用从再生医学到有用的合成生命机器。
translated by 谷歌翻译
对表格数据的深度学习的最新工作表明了深层表格模型的强劲表现,通常会弥合梯度增强的决策树和神经网络之间的差距。除了准确性之外,神经模型的主要优点是它们学习可重复使用的功能,并且在新域中很容易进行微调。该属性通常在计算机视觉和自然语言应用中被利用,在特定于任务的培训数据稀缺时,转移学习是必不可少的。在这项工作中,我们证明上游数据使表格神经网络比广泛使用的GBDT模型具有决定性的优势。我们为表格转移学习提出了一个现实的医学诊断基准,并提出了使用上游数据来通过各种表格神经网络体系结构来提高性能的方法指南。最后,我们为上游和下游特征集不同的情况提出了一种伪特征方法,在现实世界中,特定于表格的问题广泛。我们的代码可在https://github.com/levinroman/tabular-transfer-learning上找到。
translated by 谷歌翻译
The goal of the Mars Sample Return campaign is to collect soil samples from the surface of Mars and return them to Earth for further study. The samples will be acquired and stored in metal tubes by the Perseverance rover and deposited on the Martian surface. As part of this campaign, it is expected that the Sample Fetch Rover will be in charge of localizing and gathering up to 35 sample tubes over 150 Martian sols. Autonomous capabilities are critical for the success of the overall campaign and for the Sample Fetch Rover in particular. This work proposes a novel system architecture for the autonomous detection and pose estimation of the sample tubes. For the detection stage, a Deep Neural Network and transfer learning from a synthetic dataset are proposed. The dataset is created from photorealistic 3D simulations of Martian scenarios. Additionally, the sample tubes poses are estimated using Computer Vision techniques such as contour detection and line fitting on the detected area. Finally, laboratory tests of the Sample Localization procedure are performed using the ExoMars Testing Rover on a Mars-like testbed. These tests validate the proposed approach in different hardware architectures, providing promising results related to the sample detection and pose estimation.
translated by 谷歌翻译
谷歌的运营洪水预测系统是制定的,为机构和公众提供准确的实时洪水警告,重点是河流洪水在大型潮流的河流中。它在2018年开始运作,自从地理位置扩展以来。该预测系统由四个子系统组成:数据验证,阶段预测,淹没建模和警报分配。机器学习用于两个子系统。阶段预测采用长短期内存(LSTM)网络和线性模型进行建模。使用阈值和歧管模型计算洪水淹没,前者计算淹没程度,后者计算淹没程度和深度。本文首次提供的歧管模型提供了一种机器学习替代洪水淹没的液压建模。在评估历史数据时,所有型号都可以实现可操作使用的足够高的度量指标。 LSTM表现出比线性模型更高的技能,而阈值和歧管模型达到了类似的性能度量,以便在淹没程度上进行建模。在2021年的季风季节期间,洪水预警系统在印度和孟加拉国运营,覆盖河流的洪水区,总面积287,000平方公里,拥有350多万人。超过100米的洪水警报被发送给受影响的人口,相关当局以及紧急组织。系统上的当前和未来的工作包括将覆盖范围扩展到额外的洪水易发位置,以及提高建模能力和准确性。
translated by 谷歌翻译
准确和完整的地形图提高了自主机器人的意识,并实现了安全和最佳的路径规划。岩石和地形通常会产生闭塞,并导致数字高度地图(DEM)中缺少高程信息。目前,在运动规划期间完全避免了这些遮挡区域,或者在使用传统的插值,扩散或补丁匹配技术中填写高程地图中缺失的值。这些方法不能利用高级地形特征和我们人类直观地使用的视线的几何约束来预测被遮挡区域。我们介绍了一种能够对现实世界数据进行培训的自我监督的学习方法,无需了解DEMS中的遮挡区域。我们通过表演光线铸件将人工遮挡添加到真实机器人上的不完整高度地图来实现这一点。我们首先评估我们在综合性数据上进行监督的学习方法,我们拥有完整的地面真相,随后移动到几个真实的数据集。这些现实世界数据集在具有腿机器人的结构化和非结构化地形的探索期间记录,并且另外在月球模拟地形的行星场景中。与合成地形和真实世界数据集的基线方法相比,我们陈述了重大改进。我们的神经网络能够在CPU和GPU上实时运行,具有适当的自主地机器人的采样率。我们激励重建闭塞在高程地图中的适用性与初步运动规划实验。
translated by 谷歌翻译